Warning: this paper contains content that may be offensive or upsetting. In the current context where online platforms have been effectively weaponized in a variety of geo-political events and social issues, Internet memes make fair content moderation at scale even more difficult. Existing work on meme classification and tracking has focused on black-box methods that do not explicitly consider the semantics of the memes or the context of their creation. In this paper, we pursue a modular and explainable architecture for Internet meme understanding. We design and implement multimodal classification methods that perform example- and prototype-based reasoning over training cases, while leveraging both textual and visual SOTA models to represent the individual cases. We study the relevance of our modular and explainable models in detecting harmful memes on two existing tasks: Hate Speech Detection and Misogyny Classification. We compare the performance between example- and prototype-based methods, and between text, vision, and multimodal models, across different categories of harmfulness (e.g., stereotype and objectification). We devise a user-friendly interface that facilitates the comparative analysis of examples retrieved by all of our models for any given meme, informing the community about the strengths and limitations of these explainable methods.
translated by 谷歌翻译
Automation in farming processes is a growing field of research in both academia and industries. A considerable amount of work has been put into this field to develop systems robust enough for farming. Terrace farming, in particular, provides a varying set of challenges, including robust stair climbing methods and stable navigation in unstructured terrains. We propose the design of a novel autonomous terrace farming robot, Aarohi, that can effectively climb steep terraces of considerable heights and execute several farming operations. The design optimisation strategy for the overall mechanical structure is elucidated. Further, the embedded and software architecture along with fail-safe strategies are presented for a working prototype. Algorithms for autonomous traversal over the terrace steps using the scissor lift mechanism and performing various farming operations have also been discussed. The adaptability of the design to specific operational requirements and modular farm tools allow Aarohi to be customised for a wide variety of use cases.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
通过各种物体学习各种灵巧的操纵行为仍然是一个开放的巨大挑战。虽然政策学习方法为攻击此问题提供了强大的途径,但它们需要大量的每任务工程和算法调整。本文试图通过开发预先保证的灵巧操纵(PGDM)框架来逃避这些约束,从而在没有任何特定于任务的推理或超级参数调整的情况下会产生各种灵活的操纵行为。 PGD​​M的核心是一种众所周知的机器人构建体,即pre grasps(即用于对象相互作用的手工置序)。这种简单的原始性足以诱导有效的探索策略来获取复杂的灵巧操纵行为。为了详尽地验证这些主张,我们介绍了TCDM,这是根据多个对象和灵巧的操纵器定义的50个不同操纵任务的基准。 TCDM的任务是使用来自各种来源(动画师,人类行为等)的示例对象轨迹自动定义的,而无需任何执行任务工程和/或监督。我们的实验验证了PGDM的探索策略,该策略是由令人惊讶的简单成分(单个预抓姿势)引起的,与先前方法的性能相匹配,这些方法需要昂贵的每任意功能/奖励工程,专家监督和高参数调整。有关动画可视化,训练有素的策略和项目代码,请参阅:https://pregrasps.github.io/
translated by 谷歌翻译
参考分辨率旨在识别说话者所引用的实体,在现实世界中更为复杂:新的指称者可以由代理商参与和/或仅仅因为属于共享的物理设置而创建和/或显着。我们的重点是在多模式对话中解决对大屏幕显示上的可视化的引用;至关重要的是,参考分辨率直接参与创建新的可视化的过程。我们描述了通过语言和手势以及新实体建立在大屏幕上出现的可视化的用户引用的注释,这是由于执行用户请求创建新可视化而产生的。我们还描述了我们的参考分辨率管道,该管道依赖于信息状态体系结构来维护对话环境。我们报告有关检测和解决参考文献的结果,模型上下文信息的有效性以及创建可视化的请求不足。我们还尝试了常规的CRF和深度学习 /变压器模型(Bilstm-CRF和Bert-CRF),以在用户话语文本中标记参考。我们的结果表明,尽管CRF仍然表现出色,但转移学习显着提高了深度学习方法的性能,这表明传统方法可能会更好地概括为低资源数据。
translated by 谷歌翻译
现代神经网络使用构建块,例如与任意2D翻译一样的卷积。但是,这些香草块并不等于投影歧管中的任意3D翻译。即便如此,所有单眼3D检测器都使用香草块来获得3D坐标,这是为此而不是为香草块设计的任务。本文迈出了朝着探索综合的第一步,以在投影歧管中进行任意3D翻译。由于该深度是最难估计的单眼检测,因此本文提出了深度模棱两可的网络(deviant),该网络(deviant)构建了现有的量表等效性的可检测块。结果,偏差与投影歧管中的深度翻译相等,而香草网络却没有。额外的深度竞争力迫使这种偏差学习一致的深度估计,因此,越来越多的人在纯图像类别中的Kitti和Waymo数据集上实现了最新的单眼3D检测结果,并使用额外信息竞争地对方法进行了竞争性执行。此外,在跨数据库评估中,异常比香草网络更好。 https://github.com/abhi1kumar/deviant的代码和模型
translated by 谷歌翻译
在其表示中,已经发现接受过文本数据训练的神经网络模型编码不希望的语言或敏感属性。删除此类属性是不平凡的,因为属性,文本输入和学习的表示之间存在复杂的关系。最近的工作提出了事后和对抗方法,以从模型的表示中删除此类不需要的属性。通过广泛的理论和经验分析,我们表明这些方法可以适得其反:它们无法完全删除属性,在最坏的情况下,最终可能会破坏所有与任务相关的功能。原因是方法对探测分类器的依赖作为属性的代理。即使在最有利的条件下,当属性在表示空间中的特征可以提供100%的学习探测分类器时,我们证明事后或对抗方法将无法正确删除属性。这些理论含义通过经验实验在合成,多NLI和Twitter数据集的模型上证实。对于敏感的属性去除(例如公平性),我们建议您谨慎使用这些方法,并提出伪造度量,以评估最终分类器的质量。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
在本文中,我们提出了一种三阶段培训方法,提高低资源语言的语音识别准确性。我们探索并提出了一种有效的技术组合,如传输学习,编码器冻结,使用文本到语音(TTS)和半监督学习(SSL)。为了提高低资源意大利ASR的准确性,我们可以分别利用训练有素的英语模型,未标记的文本语料库和未标记的音频语料库,分别分别使用传输学习,TTS增强和SSL。在第一阶段,我们使用从训练有素的英语模型的转移学习。这主要有助于学习来自资源丰富的语言的声学信息。该阶段通过基线减少约24%的相对字错误率(WER)。在第二阶段,我们通过TTS数据增强利用未标记的文本数据来将语言信息合并到模型中。我们还在此阶段探索冻结声学编码器。 TTS数据增强有助于我们进一步减少〜21%相对〜21%。最后,在第三阶段,我们通过使用来自未标记的音频数据的SSL来减少另一个4%的相对。总体而言,我们的双通话识别系统在第一次通过的单调散文注意力(Mocha)和第二次通过的全部关注,相对于基线,减少了〜42%的WER。
translated by 谷歌翻译
许多现实世界问题需要综合应用采用合适的抽象,致辞认识和创造性的解决问题策略的多种推理能力。为了帮助推进AI系统实现这种能力,我们提出了一个新的推理挑战,即费银问题(FPS),这是答案只能估计的问题,因为它们的精确计算是不切实际或不可能的。例如,“如果世界上所有的冰融化,那么海平面会增加多少海平面?” FPS通常用于测验和访谈,以发出和评估人类的创造性推理能力。为AI系统做同样的事情,我们展示了两个数据集:1)来自测验和奥林匹克的1K现实世界FPS的集合; 2)一个10K的中间复杂合成FPS的银行,作为较难的真实挑战的沙箱。除问题答案对之外,数据集还包含可执行计划形式的详细解决方案,并提供支持事实,帮助监督和评估中间步骤。我们展示了甚至广泛的微调大规模语言模型在这些数据集上表现不佳,平均估计是由两个数量级的估计值。因此,我们的贡献是几个未解决的AI问题的结晶,以至于我们希望将促进可以推理的建筑系统进一步前进。
translated by 谷歌翻译